【TAIL CAMP】NLP Task:手写作文自动评分

主要目标

  • 学习使用textblob
  • 学习readability的计算方法和相关工具
  • 自动作文评分理论与方法学习

Day 1: 安装并学习使用 textblob 工具,学习parsing相关知识

今天我们将学习使用另一个nlp常用工具textblob,通过使用这个工具,学习其中的Part-of-speech Tagging,Spelling Correction,n-gram等概念

  1. 阅读nltk book 第八章节,学习parsing概念
  1. 安装textblob
  1. 学习textblob功能点

Day2: 学习Readability的定义和计算方法,学习使用工具textstat 和 readability。

今天我们学习nlp中文章可读性的定义和计算方法,同时会用工具去计算。文章的可读性在自动作文评分,分级阅读等领域都有应用。

  1. 学习readability的定义

  2. 学习使用工具 textstat

  3. 学习使用工具 readability

Day3: 学习Keras的安装和使用

今天我们学习Keras,掌握一种快速搭建和使用深度神经网络的工具,可选择用于后面建立基于深度学习的自动作文评分

  1. Keras 的介绍和安装 中文版本
    英文版本

  2. 学习使用keras 中文教程

  1. 使用keras对文本进行处理和编码 中文教程

Day4&5: 阅读论文,学习自动作文评分的理论和方法

前面几天我们已经学习了可以用来进行自动作文评分的一些概念和方法,接下来,我们通过阅读几片论文,了解和学习目前自动作文评分的主流的理论和方法。人工进行特征选择的方案,能够给写作文的用户带来更多的反馈信息,一定程度可以指导用户在弱项上进行提升;相比之下,基于深度学习的方法可能可以得到好的性能,但是是一个黑盒,从中没有办法获得更多的反馈;大家根据个人情况,可以充分发挥,例如做一些混合的系统等。以下内容作为同学们实现系统的参考:

参考阅读材料:

人工进行特征选择的评分系统

基于深度学习方法的评分系统

目前市面上比较权威的一个系统:ETS的e-rater评分系统

Day6: 设计方案,进行机器自动评分

下面的链接是使用基于深度学习的方法进行作文自动评分的样例(前面提供论文的一个实现),可以作为一个实现方案的参考,同时大家可以自行设计自己的网络拓扑去做一些实验尝试。

此外,需要注意的是,我们选择的数据比样例少,所以考虑使用cpu模式去做实验,而样例使用了gpu模式。

参考链接